Statistik Deskriptif¶
Pengertian¶
Statistika Deskriptif adalah metode-metode yang berkaitan dengan pengumpulan data dan penyajian suatu gugus data sehingga memberikan informasi yang berguna
Statistika Deskriptif juga merupakan metode yang sangat sederhana. Metode ini hanya medeskripsikan kondisi dari data yang sudah anda miliki dan menyajikannya dalam bentuk tabel diagram grafik dan bentuk lainnya yang disajikan dalam uraian-uraian singkat dan juga terbatas. Dengan Statistika deskriptif, kumpulan data yang diperoleh akan tersaji dengan ringkas dan rapi serta dapat memberikan informasi inti dari kumpulan data yang ada sehingga dapat meyakinkan pengguna menggunakan data-data yang tersaji dengan ringkas tersebut.
Tipe Statistik Deskriptif¶
Mean(rata-rata)¶
Mean adalah "nilai rata-rata" dari beberapa buah data. Nilai mean dapat ditentukan dengan membagi jumlah data dengan banyaknya data.
Mean (rata-rata) merupakan suatu ukuran pemusatan data.Mean suatu data juga merupakan statistik karena mampu menggambarkan bahwa data tersebut berada pada kisaran mean data tersebut. Mean tidak dapat digunakan sebagai ukuran pemusatan jenis data normal dan ordinal.
Berdasarkan definisi dari mean adalah jumlah seluruh data dibagi dengan banyaknya data. Dengan kata lain jika kita memiliki N data sebagai berikut maka data tersebut dapat kita tuliskan sebagai berikut di bawah ini: $$ \bar x={\sum \limits_{i=1}^{n} x_i\over N} = {x_1 + x_2 + x_3 + . . . . . + x_n \over N} $$
Dimana :
X bar = x rata-rata = nilai rata-rata sampel
x = data ke n
n = banyaknya data
Median¶
Median menentukan letak tengah data setelah data disusun menurut urutan nilainya. Bisa juga dikatakan sebagai nilai pertengahan dari sekelompok data yang telah diurutkan menurut besarnya. Jika banyaknya datanya ganjil, maka rumus mediannya : $$ Me=Q_2 =\left ( \begin{matrix} n+1 \over 2 \end{matrix} \right),jika\quad n\quad Ganjil $$ Dan jika banyaknya datanya genap maka mediannya adalah : $$ Me=Q_2 =\left ( \begin{matrix} {xn \over 2}{xn+1\over2} \over 2 \end{matrix} \right), jika\quad n\quad Genap $$
Keterangan :
Me = Median dari kelompok data
n : banyaknya data
Modus¶
Modus adalah nilai yang sering muncul. Jika kita tertarik pada data frekuensi , jumlah dari suatu nilai dari kumpulan data, maka kita menggunakan modus. Modus sangat baik digunakan untuk data yang memili skala kategorik yaitu nominal atau ordinal. Modus bisa dihitung menggunakan rumus sebagai berikut : $$ M_o = Tb + p{b_1 \over b_1 +b_2} $$
Dimana :
Mo = banyaknya nilai yang sama / sering muncul
Tb = Tepi bawah yang memiliki frekuensi tertenggi (kelas modus)
b1= Interval kelas b1 (Frekuensi kelas modus dikurangi frekuensi kelas interval terdekat sebelumnya)
b2= Interval kelas b2 (Frekuensi kelas modus dikurangi frekuensi kelas interval terdekat sesudahnya).
p = panjang interval
Standar Deviasi¶
Standar Deviasi dan Varians adalah salah satu teknik statistik yang digunakan untuk menjelaskan hormogenitas kelompok. Varians merupakan jumlah kuadrat semua deviasi nilai-nilai individual terhadap rata-rata kelompok. Sedangkan akar dari varians disebut dengan standar deviasi atau simpangan baku.
Standar Deviasi dan Varians (Simpangan baku) merupakan variasi sebaran data. Semakin kecil nilai sebarannya berarti variasi nilai data makin sama. Jika sebarannya bernilai 0, maka nilai semua datanya adalah sama. Semakin besar nilai sebarannya berarti data semakin bervariasi.
Standar Deviasi bisa didapat menggunakan rumus sebagai berikut : $$ \sigma^ = \sqrt {{\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n}} $$
Dimana :
x = data ke n x bar = x rata-rata = nilai rata-rata sampel n = banyaknya data
Varians¶
Varians merupakan rata-rata dari selisih kuadrat tersebut yang merupakan suatu ukuran penyimpangan dari observasi. Simbol varians pada ukuran populasi zigma kuadrat pada ukuran sample S2. Akar dari varians dinamakan standar deviasi atau simpangan baku. Varians bisa didapat menggunakan rumus sebagai berikut : $$ \sigma^2 = {\sum \limits_{i=1}^{n} (x_i - \bar x)^2 \over n} $$ Dimana :
Xi = titik data
x bar = rata-rata dari semua titik data
n = banyak dari anggota data
Skewness¶
Skewness (kemencengan) atau bisa disebut sebagai penyimpangan dari kesimetrian dari suatu distribusi adalah derajat ketidaksimetrisan suatu distribusi. Jika kurva frekuensi suatu distribusi memiliki ekor yang lebih memanjang ke kanan (dilihat dari meannya) maka dikatakan menceng kana (positif) dan jika sebaliknya maka menceng kiri (negatif). Secara perhitungan, skewness adalah momen ketiga terhadap mean. Distribusi normal (dan distribusi simetris lainnya, misalnya distribusi t atau Cauchy) memiliki skewness 0 (nol). Skewness bisa dihitung menggunakan rumus sebagai berikut: $$ Skewness = {\sum \limits{i=1}^n (x_i - \bar x)^i \over (n-1) \sigma^3} $$ Dimana :
Xi = titik data
x bar = rata-rata dari distribusi
n = jumlah titik dalam distribusi
o = standar deviasi
Quartile¶
Quartile adalah nilai-nilai yang membagi segugus pengamatan menjadi empat bagian yang sama besar. Nilai-nilai itu dilambangkan sebagai Q1,Q2, dan Q3. Lambang tersebut mempunyai sifat bahwa 25% data jatuh dibawah adalah Q1, 50% data jatuh dibawah adalah Q2, dan 75% data jatuh didibawah adalah Q3. Quartile bisa dihitung menggunakan rumus sebagai berikut : $$ Q_1 = {1\over 4}(n +1 ),Quartil\quad 1\quad dalam\quad 0.25 $$
$$ Q_2 = {1\over 2}(n + 1),Quartil\quad 2\quad dalam\quad 0.50 $$
$$ Q_3 = {3\over 4} (n + 1),Quartil\quad 3\quad dalam\quad 0.75 $$
Dimana :
n = sebagai jumlah datanya
Penerapan Statistik Deskriptif Menggunakan Python¶
Alat dan Bahan¶
Pada Penerapan ini kita harus menggunakan data random 500 dengan jangkauan yang telah di tentukan yang disimpan dalam bentuk .csv dan untuk mempermudah penerapan ini kita harus menginstall dan mendownload hal-hal yang diperlukan untuk bisa mempermudah penerapan statistik deskriptif ini menggunakan python.
Dalam jendala cmd kita harus menginstall yaitu:
1. Pandas, digunakan untuk data manajemen dan data analysis
2. Scipy, digunakan untuk libary yang berisikan kumpulan algoritma dan fungsi matematika
Pada Langkah Pertama¶
Kita harus memasukkan libary yang telah disiapkan sebelumnya
import pandas as pd from scipy import stats
Langkah Kedua ini¶
Kita memasukkan data csv tersebut dan disiapkan
df = pd.read_csv('Book1.csv', sep=';')
Data yang ada di csv berikut ini:
X1 | X2 | X3 | X4 | |
---|---|---|---|---|
0 | 63 | 44 | 123 | 109 |
1 | 52 | 32 | 112 | 75 |
2 | 53 | 30 | 105 | 83 |
3 | 56 | 31 | 125 | 88 |
4 | 66 | 32 | 102 | 76 |
5 | 69 | 22 | 129 | 95 |
6 | 51 | 42 | 111 | 102 |
7 | 80 | 45 | 126 | 109 |
8 | 73 | 43 | 114 | 74 |
9 | 65 | 46 | 106 | 80 |
10 | 55 | 33 | 114 | 77 |
11 | 80 | 37 | 100 | 92 |
12 | 55 | 38 | 110 | 84 |
13 | 60 | 46 | 119 | 86 |
14 | 54 | 36 | 113 | 104 |
15 | 68 | 50 | 118 | 104 |
16 | 55 | 36 | 118 | 84 |
17 | 56 | 20 | 100 | 100 |
18 | 55 | 41 | 113 | 75 |
19 | 56 | 22 | 100 | 93 |
20 | 61 | 34 | 105 | 97 |
21 | 66 | 36 | 101 | 82 |
22 | 70 | 33 | 124 | 92 |
23 | 63 | 35 | 113 | 81 |
24 | 80 | 44 | 100 | 88 |
25 | 67 | 50 | 120 | 86 |
26 | 58 | 28 | 109 | 72 |
27 | 73 | 22 | 128 | 103 |
28 | 70 | 36 | 102 | 74 |
29 | 55 | 40 | 113 | 105 |
... | ... | ... | ... | ... |
470 | 78 | 20 | 110 | 79 |
471 | 63 | 28 | 108 | 92 |
472 | 64 | 20 | 115 | 86 |
473 | 69 | 37 | 127 | 78 |
474 | 74 | 28 | 126 | 73 |
475 | 79 | 28 | 116 | 100 |
476 | 69 | 48 | 103 | 80 |
477 | 60 | 21 | 120 | 77 |
478 | 73 | 35 | 112 | 75 |
479 | 71 | 41 | 128 | 92 |
480 | 67 | 41 | 110 | 84 |
481 | 63 | 27 | 129 | 72 |
482 | 75 | 46 | 107 | 76 |
483 | 55 | 32 | 113 | 109 |
484 | 50 | 32 | 114 | 81 |
485 | 62 | 32 | 103 | 80 |
486 | 77 | 34 | 109 | 77 |
487 | 58 | 46 | 111 | 97 |
488 | 64 | 46 | 121 | 101 |
489 | 73 | 39 | 114 | 105 |
490 | 51 | 32 | 100 | 75 |
491 | 50 | 32 | 103 | 96 |
492 | 67 | 41 | 129 | 72 |
493 | 57 | 31 | 113 | 106 |
494 | 77 | 38 | 107 | 75 |
495 | 55 | 50 | 117 | 87 |
496 | 58 | 23 | 106 | 95 |
497 | 58 | 36 | 112 | 78 |
498 | 55 | 49 | 102 | 87 |
499 | 50 | 34 | 112 | 106 |
500 rows × 4 columns
Langkah Ketiga¶
Kita harus membuat Data Penyimpanan (Dictionary) yang digunakan untuk bisa menampung nilai yang akan ditampilkan. Selanjutnya mengambil dari dari kolom-kolom data yang ada di dalam csv dengan cara diiterasi serta dihitung dengan berbagai metode yang telah disiapkan oleh pandas itu sendiri. Kemudian hasil tersebut disimpan pada penyimpanan yang telah disiapkan.
data = {"Stats" : ['Min','Max','Mean','Standar Deviasi','Variasi','Skewnes', 'Quantile 1','Quantile 2','Quantile 3','Median','Modus']} for i in df.columns : data[i] = [df[i].min(),df[i].max(),df[i].mean(), round(df[i].std(), 2), round(df[i].var(), 2), round(df[i].skew(), 2),df[i].quantile(0.25), df[i].quantile(0.50),df[i].quantile(0.75), df[i].median(), stats.mode(df[i]). mode[0]]
Pada Langkah Keempat ini¶
Kita menvisualisasikan hasil tersebut dalam bentuk dataframe
tes = pd.DataFrame(data,columns = ['Stats']+ [x for x in df.columns]) tes
Berikut Hasil Gabungan dari code yang telah di buat untuk menampilkan program tabel dibawah ini
import pandas as pd from scipy import stats df = pd.read_csv('Book1.csv', sep=';') data = {"Stats" : ['Min','Max','Mean','Standar Deviasi','Variasi','Skewnes', 'Quantile 1','Quantile 2','Quantile 3','Median','Modus']} for i in df.columns : data[i] = [df[i].min(),df[i].max(),df[i].mean(), round(df[i].std(), 2), round(df[i].var(), 2), round(df[i].skew(), 2),df[i].quantile(0.25), df[i].quantile(0.50),df[i].quantile(0.75), df[i].median(), stats.mode(df[i]). mode[0]] tes = pd.DataFrame(data,columns = ['Stats']+ [x for x in df.columns]) tes
Hasil Program yang telah divisualiasikan
Stats | X1 | X2 | X3 | X4 | |
---|---|---|---|---|---|
0 | Min | 50.00 | 20.000 | 100.000 | 70.000 |
1 | Max | 80.00 | 50.000 | 130.000 | 110.000 |
2 | Mean | 64.89 | 35.384 | 114.094 | 89.784 |
3 | Standar Deviasi | 8.97 | 9.100 | 8.960 | 11.620 |
4 | Variasi | 80.49 | 82.860 | 80.250 | 135.110 |
5 | Skewnes | -0.04 | -0.090 | 0.110 | -0.010 |
6 | Quantile 1 | 57.00 | 28.000 | 106.000 | 80.000 |
7 | Quantile 2 | 66.00 | 36.000 | 113.000 | 90.000 |
8 | Quantile 3 | 73.00 | 43.000 | 121.000 | 99.000 |
9 | Median | 66.00 | 36.000 | 113.000 | 90.000 |
10 | Modus | 73.00 | 20.000 | 102.000 | 97.000 |
Referensi¶
1. https://id.wikipedia.org/wiki/Statistika_deskriptif
2. https://rumus.co.id/mean-median-modus-data-kelompok/
3. http://emerer.com/cara-menghitung-median-modus-mode-kuartil-dan-desil/
4. https://carasiiumi.com/cara-menghitung-standar-deviasi/
5. http://muhammadsurindra.blogspot.com/2015/11/tugas2-pengantar-statistika-kaliini.html